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The invention concerns a method which consists in: gathering (17) the 
parameters on N consecutive frames to form a super-frame; carrying out a vector 
quantization (18) of the voicing transition frequencies during each super-frame, 
by transmitting without degradation only the most frequent configurations and by 
replacing the least frequent configurations by the closest configuration in terms of 
absolute error among the most frequent; encoding the pitch (19), by scalar 
quantization of only one pitch value for each super-frame; encoding the energy 
(20) by selecting only a reduced number of values by gathering said values into 
sub-packets quantized by vector quantization (21); encoding by vector 
quantization (21) the spectral envelope parameters by selecting only a 
predetermined number of filters, the non-transmitted parameters being 
reconstructed by interpolation or extrapolation from the transmitted filter 
parameters. The invention is applicable to vocoders. 
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PROCEDE DE CODAGE DE LA PAROLE A BAS DEBIT. 

v , Le proc&te consiste k regrouper (17) les parametres 
sur N trames consScutives pour former une super-trame, k 
effectuer une quantification vectorielle (18) des frequences 
de transition du voisement au cours de chaque super-trame, 
en ne transmettant sans degradation que les configurations 
les plus fr^quentes et en remplagant les configurations les 
moins frequentes par la configuration la plus proche en ter- 
me d'erreur absolue parmi les plus fr6quentes, k coder le 
pitch (19) en ne quantifiant scalairement qu'une seule va- 
leur du pitch pour chaque super-trame, a coder I'energie 
(20) en ne sSlectionnant qu'un nombre r6duit de valeurs en 
regroupant ces valeurs en sous paquets quantifies par 
^n 01 !^! 00 vectorielle, k coder par quantification vecto- 
nelle (21) les parametres d'enveloppe spectrale en ne s§- 
lectionnant qu'un nombre determine de fiitres, les 
parametres non transmis Stant reconstruits par interpolation 
ou extrapolation k partir des parametres des fiitres transmis 
Applications; vocodeurs. 
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La presente invention concerne un procede de codage de la 
parole. Elle s'applique notamment h la realisation de vocodeurs h tres bas 
debit, de I'ordre de 1 200 bits par seconde et mis en oeuvre par exemple 
5 dans les communications par satellite, la telephonie sur internet, les 
repondeurs statiques, les pageurs vocaux etc... 

L'objectif de ces vocodeurs est de permettre de reconstruire un 
signal qui soit le plus proche possible au sens de la perception par I'oreille 
humaine du signal de parole d'origine, en utilisant un debit binaire le plus 
10 faible possible. 

Pour atteindre cet objectif les vocodeurs utilisent un modele 
totalement parametrg du signal de parole. Les parametres utilises 
concernent le voisement qui d^crit le caractere pSriodique des sons 
voises ou le caractSre aieatoire de sons non voises, la frequence 
15 fondamentale des sons voises encore connue sous le vocable anglo-saxon 
"PITCH", Involution temporelle de I'energie ainsi que I'enveloppe 
spectrale du signal pour exciter et parametrer les filtres de synthase. 
Generalement le filtrage est r^alis6 par une technique de filtrage 
numerique a prediction lineaire. 
20 Ces differents parametres sont estimes p^riodiquement sur le 

signal de parole, de une b plusieurs fois par trame de 10 a 30 ms, selon 
les parametres et les codeurs. lis sont elabor6s au niveau d'un dispositif 
d'analyse et sont generalement transmis a distance en direction d'un 
dispositif de synthase. 
25 Le domaine du codage de la parole a bas debit a longtemps ete 

domine par un codeur a 2 400 bi_ts/s connu sous la designation LPC 10. 
Une description de ce codeur, ainsi que d'une variante a plus bas debit 
peut etre trouvee dans les articles Intitules : 

"Parameters and coding characteristics that must be common 
30 to assure interoperability of 2 400 bps linear predictive encoded speech", 
NATO Standard STANAG - 4198 - Ed 1, 13 February 1984 et dans 
['article de MM. B.Mouy, D de la Npue et G. Goudezeune, intitule "NATO 
STANAG 4479 : A standard for an 800 bps vocoder and channel coding 
in HF-ECCM system", publie dans IEEE International Conference on 
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Acoustics, Speech, and Signal Processing, Detroit, May 1955, pp. 480- 
483. 

Bien que parfaitement intelligible, la parole reproduite par ce 
vocodeur, est d'assez mauvaise qualite, de sorte que son usage est limite" 
5 a des applications bien sp^cifiques, principalement professionnelles et 
miiitaires. Ces dernieres aringes le domaine du codage de la parole a bas 
d^bit a connu un grand nombre d'innovations, grace a I'introduction de 
nouveaux modeles connus respectivement sous les abreviations MBE, 
PWI et MELP. — 

10 Une description du modele MBE peut etre trouv6e dans I'article 

de MM. D.W. Griffin and J.S. Lim, intitule" "Multiband Excitation 
Vocoders", public dans la revue IEEE Trans, on Acoustics, Speech, and 
Signal Processing, vol. 36, n° 8, pp. 1223-1235, 1988. 

Celle du modele PWI peut §tre trouvSe dans I'article de MM. 
15 W.B. kleijn and J. Haogen, intitule "Waveform Interpolation for Coding 
and Synthesis" dans la revue Speech Coding and Synthesis Sdite" par 
W.B. Kleijn et KK. Paliwal, Elsevier 1995. 

Enfin, une description du modele MELP peut Stre trouvee dans 
I'article de MM. L.M. Supplee, R.P. Cohn, J.S. Collura, and A.V. McCree, 
20 intitule "MELP : The new federal standard at 2 400 bits/s, public dans la 
revue IEEE International Conference on Acoustics, Speech, and Signal 
Processing, Munich, April 1997, pp. 1591 - 1594. 

La qualite" de la parole restituee par ces modeles a 2400 bits/s 
est devenue acceptable pour un-grand nombre duplications civiles et 
25 commerciales. Mais pour les dSbitsJnferieurs a 2 400 bits/s (typiquement 
1 200 bits/s ou moins) la parole restitute pr6sente une qualite 
insuffisante et pour pallier cet inconvenient d'autres techniques ont ete 
mises en oeuvre. Une premiere technique est celle du vocodeur 
segmental, dont deux variantes spnt celles decrites par MM. B. Mouy, P. 
30 de la Noue and G. Goudezeune d«§ja crtie, et de celle decrite par M. Y. 
Shoham intitulee "Very low complexity interpolative speech coding at 1 .2 
to 2.4 K bps", publie dans IEEE International Conference on Acoustics, 
Speech, and Signal Processing, Munich, April 1997, pp 1599 - 1602. 
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Mais & ce jour, aucurrvocodeur segmental n'a 6t£ jug6 de 
qualite suffisante pour des applications civiles et commerciales. 

Une deuxteme technique est celle mise en oeuvre dans les 
vocodeurs phonStiques, qui combinent des principes de reconnaissance et 
5 de synthase. L'activitS dans ce dpmaine se situe plutot au stade de la 
recherche fondamentale, les debits vis6s sont g6ngralement tr6s 
inferieurs £ 1 200 bits/s {typiquement 50 a 200 bits/s) mais la qualite 
obtenue est plutot mauvaise et il ri T y a souvent pas de reconnaissance du 
locuteur. Une description de ces "types de vocodeurs peut etre trouvSe 
0 dans Tarticle de MM. J. Cernocky, G. Baudoin, G. Chollet, ayant pour 
titre : "Segmental vododer - Going beyond the phonetic approch" publie 
dans IEE International Conference on Acoustics, Speech, and Signal 
Processing, Seattle, May 12 - 15T998, pp. 605 - 698. 

~ — Le-but de-l'invention est de pallier les inconv^nients cites. 

5 A cet effet, Tinvention a"pour objet un proc6d6 de codage et de 

d^codage de la parole pour les" communications vocaies utilisant un 
vocodeur a trds bas debit comportant une partie analyse pour le codage 
et la transmission des parametres du signal de parole et une partie 
synthese pour la reception et le depodage des parametres transmis et la 
reconstruction du signal de parole "par utilisation de filtres de synthase d 
prediction linSaire du type consistant a analyser les parametres, decrivant 
le pitch, la frequence de transition de voisement, Tenergie, et I'enveloppe 
spectrale du signal de parole, en dgcoupant le signal de parole en trames 
successives de longueur determinSe caracterise en ce qu'il consiste £ 
regrouper les parametres sur N trames consecutives pour former une 
super-trame, h effectuer une quantTfication vectorielle des frequences de 
transition du voisement au colirs de chaque super-trame, en ne 
transmettant sans degradation que les configurations les plus frequentes 
et en remplapant les configurations les moins frequentes par la 
configuration la plus proche en terme d'erreur absolue parmi les plus 
frequentes, a coder |e pitch en ne quantifiant scalairement qu'une seule 
valeur pour chaque super-trame, £ coder Tenergie en ne seiectionnant 
qu'un nombre reduit de valeurs"~en regroupant ces valeurs en sous 
paquets quantifies par quantification vectorielle, les valeurs d'energie non 
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transmises etant nfcupeVSes dans' la partie synthese par interpolation ou 
extrapolation a partir des valeurs transmises, a coder par quantification 
vectorielle les parametres d'enveloppe spectrale pour I'encodage des 
filtres de synthese a prediction lihdaire en ne s<§lectionnant qu'un nombre 
5 determine de filtres, les parametres non transmis etant reconstruits par 
interpolation ou extrapolation a partir des parametres des filtres transmis. 

D'autres caractenstiques et avantages de I'invention 
apparaTtront a I'aide de la description qui suit faite en regard des dossiers 
annexes qui repr6sentent : 

10 La f '9 ur e 1 un modele,d'excitation mixte d'un vocodeur type 

HSX utilise pour la mise en oeuvre de I'invention. 

La figure 2 un schema fonctionnel de la partie "analyse" d'un 
vocodeur de type HSX utilise - pour la mise en oeuvre de I'invention. 

La figure 3 un schema fonctionnel de la partie synthese d'un 
15 vocodeur de type HSX utilise" pour la mise en oeuvre de I'invention. 

La figure 4 les Stapes principals du procSde selon I'invention 
mises sous la forme d'un organigramme. 

La figure 5 un tableau montrant la repartition des 
configurations des frequences de transition de voisement pour trois 
20 trames consecutives. 

La figure 6 une table de quantification vectorielle des 
frequences de transition de voisement utilisable pour la mise en oeuvre de 
I'invention. — 

La figure 7 une liste sous forme de tableau de schemas de 
25 selection et d 'interpolation mise en oeuvre dans I'invention pour le 
codage de I'energie du signal de parole. 

La figure 8 une liste sous forme d'un tableau de schdmas de 
selection et d' interpolation/extrapolation pour I'encodage des filtres LPC a 
prediction lineaire. 

La figure 9 un tableau d 'allocation des bits necessaires au 
codage d'un vocodeur de type HSXa 1 200 bits/s selon I'invention. 

Le procede selon I'invention met en oeuvre un vocodeur de 
type connu sous I'abreviation anglo-saxonne HSX de "Harmonic 
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Stochastic Excitation", comme base pour la realisation d'un vocodeur de 
bonne qualite a 1 200 bits/s. 

Une description de ce type de vocodeur peut etre trouvee dans 
('article de MM. C. Laflamme, R. Salami, R. Matmti et J. P. Adoul, ayant 
5 pour titre "Harmonic Stochastic Excitation (HSX) speech coding below 4 
k. bits/s" et public dans IEEE International Conference on Acoustics, and 
Signal Processing, Atlanta, May 1996, pp.204- 207. 

Le proc6de selon I'invention porte sur Tencodage des 
parametres qui permet de reproduce au mieux avec un minimum de debit 
10 toute la complexity du signal de parole. 

Comme schematise a la figure 1 un vocodeur HSX est un 
vocodeur a prediction lineaire qui utilise dans sa partie synthese un 
modele d'excitation mixte simple, dans lequel un train d'impulsion 
piriodique excite Jes-fr&juences basses et un niveau de-bruit -excite les 
15 frequences hautes d'un filtre LPC de synthase. La figure 1 d<§crit le 
principe de generation de 1'excitation mixte qui comporte deux voies de 
filtrage. La premiere voie 1i est excitee par un train d'impulsion 
periodique effectue un filtrage passe bas et la deuxteme voie 1 2 excitee 
par un signal de bruit stochastique effectue un filtrage passe haut. La 
20 frequence de coupure ou de transition f c des filtres des deux voies est la 
meme et a une position variable dans le temps. Les filtres des deux voies 
sont compiementaires. Un sommateur 2 additionne les signaux fournis 
par les deux voies. Un amplificateur 3 de gain g ajuste le gain de la 
premiere voie de filtrage pour que le signal d'excitation obtenu en sortie 
25 du sommateur 2 soit d spectre plat. 

Un diagramme fonctionnel de la partie analyse du vocodeur est 
repr6sente a la figure 2. Pour effsctuer cette analyse le signal de parole 
est d'abord filtre par un filtre passe haut 4 pour etre ensuite segmente en 
trames de 22,5 ms, comportant 180 echantillons preieves a la frequence 
30 8 KHz. Deux analyses par prediction lineaire sont effectuees en 5 sur 
chacune des trames. Aux etapes 6 et 7 le signal semi blanchi obtenu est 
filtre en quatre sous bandes. Un~suiveur de pitch 8 robuste exploite la 
premiere sous bande. La frequence de transition f c entre la bande de 
frequence basse des sons vois6s et la bande de frequence haute des sons 
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non voises est determined par le taux de voisement mesure en 9 dans les 
quatre sous bandes. Enfin, I'energie est mesuree et codee a I'etape 10 de 
maniere pitch-sychrone, 4 fois par tcame. 

Comme les performances^ suiveur de pitch et de I'analyseur 
5 de voisement 9 peuvent etre grandement ameliorees lorsque !eur decision 
est retarde d'une trame, les parametres resultant, coefficients des filtres 
de synthese. pitch, voisement, frequence de transition et energie sont 
codes avec une trame de retard. 

Dans la partie synthese du vocodeur HSX qui est reprtsente a 
0 la f,gure 3, le signal d'excitation du filtre de synthese est forme de la 
maniere deja representee a la figure 1 par la somme d'un signal 
harmonique et d'un signal al^atoire dont les enveloppes spectrales sont 
complementers. La composante harmonique est obtenue en passant un 
tram d'.mpulsions a la periode pitch dans un filtre passe bande prtcalcuM 
> 11. La composante al<§atoire est obtenue a partir d'un gene>ateur 12 
combinant une transformee de Fourier inverse et un recouvrement 
temporel. Le filtre LPC de synthese 14 est interpole" 4 fois par trame Le 
f.ltre perceptuel 15 couple en sortie de filtre 14 permet d'obtenir une 
me.lleure restitution des caractSristiques nasales du signal de parole 
or.g.nel. Enfin le dispositif de contr6le automatique de gain permet 
d'assurer que Energie pitch-synchrone du signal de sortie est egale a 
celle qui a 6te transmise. 

Avec un debit aussi bas que 1200 bits/s, il n'est pas possible 
d'encoder de facon precise toutes les 22,5 ms les 4 parametres pitch 
frequence de transition de voisement, Energie et coefficients des deux 
filtres LPC a 10 coefficients par trame. 

Pour exploiter au mieux les caracteristiques temporelles de 
I evolution des parametres qui comportent des penodes de stabilite 
entrecoup6es de variations rapides, le precede selon ('invention Se 
deroule en cinq Stapes principals rdferencees de 17 a 21 sur la figure 4 
L'etape 17 regroupe les trames vocodeurs par N trames pour former une 
super trame. A titre indicatif une valeur de N egale a 3 peut etre choisie 
car elle real.se un bon compromising la reduction possible du debit 
b,na.re et le retard introduit par le precede de quantification. D'autre part 



2784218 



7 

elle est compatible avec les techniques d'entrelacement et de codage 
correcteur d'erreurs actuelles. 

La frequence de transition de voisement est codee h I'etape 18 
par quantification vectorielle en utilisant uniquement quatre valeurs de 
5 frequence, 0,750,2000 et 3625 HZ par exemple. Dans ces conditions 6 
bits d raison de 2 bits par trame sont suffisants pour coder chacune des 
frequences et transmettre exactement la configuration de voisement des 
trois trames d'une super trame. Toutefois comme certaines 
configurations de voisement ne se reproduisent que trks rarement, on 
10 peut consider qu'elles ne sont pas forcement caracteristiques de 
revolution du signal de parole normal, car elles ne semblent pas participer 
a I'intelligibilite, ni a la quality de la parole restitute. C'est le cas par 
exemple lorsque une trame est totalement vois6e de 0 Hz jusqu'a 
3 625 Hz et qu'elle est comprise entre deux trames totalement non 
15 vois6es. .;— : 

Le tableau de la figure 5 retrace une repartition de 
configuration de voisement sur trois trames successives, calculees sur 
une base de donn^es de 123 158 trames de parole. Dans ce tableau les 
32 configurations les moins frequehtes comptent pour seulement 4% de 
20 toutes les trames, partiellement qu totalement voisees. La degradation 
obtenue en remplagant chacune de ces configurations par la plus proche, 
en terme d'erreur absolue, des 32 configurations les plus representees 
est imperceptible. Ceci montre qu'il est possible d'economiser un bit en 
quantifiant vectoriellement la frequence de transition de voisement sur 
25 une super trame. Une quantification vectorielle des configurations de 
voisement est montree dans le tableau reference 22 sur la figure 6. Le 
tableau 22 est organise de sorte que Terreur quadratique moyenne 
produite par une erreur sur un bit d'adressage soit minimale. 

Le codage du pitch s'exgcute a Tetape 19. II met en oeuvre un 
30 quantificateur scalaire sur 6 bits, avec une plage d'echantillons de 1 6 d 
1 48, et un pas de quantification uniforme sur une echelle logarithmique. 
Une seule valeur est transmise potif trois trames consecutives. Le calcul 
de la valeur a quantifier & partir des trois valeurs de pitch et la procedure 
permettant de r6cuperer les trois valeurs de pitch £ partir de la valeur 
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quantise different selon ,a va!eur des frequences de transition de 
vo.sement de ('analyse. Le processus est le suivant: 

1. Lorsque aucune trame n'est voisee, | es 6 bits sont 
pos.t.onnes a zero, le pitch decoded fixe a une valeur arbitraire soit par 

5 exemole, a 45 echantillons pour cfiacune des trames de ,a suoer trame 

2. Lorsque la derniere trame de la super-trame pnScedente et 
es tro,s trames de la super trame courante sont voisees, c'est a dire 
lorsque la frequence de transition de voisement est superieure strictemeni 
a zero, la valeur quantify est la valeur du pitch de la derniere trame de la 

) super trame courante qui est alors consideree comme une valeur cible 
Au decodeur la valeur decoded du pitch pour la troisieme trame de la 
super-trame courante est la valeur cible quamifiee, et les valeurs du pitch 
decodes pour les deux premieres trames de .a super-trame courante sont 
recuperees par interpolation lineaire entre la valeur transmise pour la 
super-trame pr<5c<§dente et la valeur cible quantifier 

3. Pour toutes les autres configurations de voisement, c'est la 
valeur ponderee du pitch sur les trois trames de la super-trame courante 
qu- est quantise. Le facteur de ponderation est proportionnel a la 
frequence de transition de voisement pour la trame consideree suivant la 
relation : 

X Pitch(i)* voisement(i) 

Valeur Moyenne PondeVge - i=1 ~ 3 

Xvoisement(i) 
i=l-3 

Au decodeur la valeur cfu pitch decodee pour | es trois trames 
de la super-trame courante est egale a la valeur moyenne ponderee 

quantifier 

De plus dans les cas 2 et 3, un leger tremolo est applique 
systemat,quement aux valeurs dTTpitch utilisees en synthese pour les 
trames 1 . 2 et 3 pour ameliorer le naturel de la parole restituee en evitant 
a generation de signaux trop forfement periodiques, suivant par exemple 
les relations : 

Pitch utilise (1) = 0,995.' Pitch Decode {1> 
Pitch utilise (2) = 1,005 » Pitch Decode (2) 
Pitch utilise (3) = 1,00CL» Pitch Decode (3) 
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L'interet de proc^der & une quantification scalaire des valeurs 
de pitch est qu'il limite le probteme de propagation des erreurs sur le train 
binaire. De plus les sch^mas de ccfdage 2 et 3 sont suffisamment proches 
Tun de I'autre pour etre inserisTbles aux mauvais decodages de la 
5 frequence de voisement. 

L'encodage de I'energie'est effectue a t'etape 20. II a lieu de la 
facon representee dans le tableau r6f6renc6 23 sur la figure 7 en utilisant 
une methode de quantification vecTorielle du type de celle d^crite dans 
1'article de RM Gray, ayant pour tftre "Vector Quantization", publie dans 
10 la revue IEEE ASP Magazine, vol, 1, pp 4-29, avril 1984. Douze valeurs 
d'energie num6rot6es de 0 h 11 sont calculees b chaque super-trame par 
la partie analyse et seulement six valeurs d'energie parmi les douze sont 
transmises. Ceci conduit h construire deux vecteurs de trois valeurs par la 
- — partie-analyser Ghaque-vecteur-est quantify- sur-six bits.- Deux bits sont 
15 utilises pour transmettre le numSro de schema de selection utilise. Lors 
du decodage dans la partie synthase, les valeurs de I'energie qui n'ont 
pas 6te quantifies sont r6cup6r6es par interpolation. 

Seuls quatre schSmas de selection sont autorises comme le 
montre le tableau de la figure "77 Ces schemas sont optimises afin 
20 d'encoder au mieux, soit les vecteurs de 12 energies stables, soit ceux 
pour lesquels I'gnergie varie rapidement au cours des trames 1, 2, et 3. 
Dans la partie analyse le vecteur d'energie est encode selon chacun des 
quatre schemas, et le schema effectivement transmis est celui qui 
minimise Terreur quadratique totale. 
25 Dans ce processus les "bits donnant le numSro du schema 

transmis ne sont pas considers cqmme sensibles, puisque qu'une erreur 
sur leur valeur ne fait qu'alterer legfcrement revolution temporelle de la 
valeur de I'energie. De plus la table de quantification vectorielle des 
energies est organis^e pour que I'erreur quadratique moyenne produite 
30 par une erreur sur un bit d'adressage soit minimale. 

Le codage des coefficients modelisant I'enveloppe du signal de 
parole a lieu par quantification vectorielle a I'etape 21. Ce codage permet 
de determiner les coefficients des filtres num^riques utilises dans la partie 
synthese. Six filtres LPC d 10 coefficients numerotes de 0 a 5 sont 
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25 



30 



calcu.es a chaque super-trame par .a partie analyse et seulement 3 filtres 
parm, les 6 sont transmis. Les six vecteurs sont transforms en six 
vecteurs de 10 paires de raies spectra.es LSF suivant par exemple ie 
processus decnt dans I'article de M F. ITAKURA, intitule "Line Spectrum 
5 Representation of Linear Predictive^oefficients" et publie dans Ie Journal 
Acoust,qu e Society America, vol.57, P.S35, 1975. Les paires de raies 
spectrales sont encodee par une technique similaire a celle mise en 
oeuvre pour le codage de I'energie. Le processus consiste a selectionner 
tro.s filtres LPC. et a quantifier chacun des vecteurs sur 18 bits en 
o ut.l.sant par exemple un quantiflcateur vectoriel predictif en boucle 
ouverte, avec un coefficient de prediction 6gal a 0,6, de type SPLIT -VQ 
portent sur deux sous-paquets de 5 LSF consecutive* auxquels il est 
alloue a chacun 9 bits. Deux bits sont utilises pour transmettre le numero 
du schema de selection utilise. Au niveau du decodeur lorsqu'un filtre 
LPC n'est pas quantifie, sa valeur est estimee a partir de celle des filtres 
LPC quantifies par interpolation lineaire par exemple, ou par extrapo.ation 
par duplication par exemple du filtre LPC precedent. A titre d'exemple un 
processus de quantification vectoTiille par paquets pourra etre constitue 
de la facon decrite dans ('article de MM K.K. PALIWAL, BS. ATAL ayant 
pour titre "Efficient Vector Quantization of LPC Parameters at 24 
b.ts/frame" et publie dans IEEE transaction on Speech and Audio 
Processing, Vol.1, Janvier 1993. 

Comme indique dans le tableau reference 24 sur la figure 8 
seuls quatre schemes de selection sont autorises. Ces schemas' 
permettent de coder au mieux, soit les zones pour .esquelles I'enveloppe 
spectrale est stab.e, soit les zones" pour lesquelles I'enveloppe spectrale 
vane rapidement au cours des trames 1, 2. ou 3. L'ensemble des filtres 
LPC est alors code selon chacurrdes quatre schemas, et le schema 
effect.vement transmis est celui qotmlnimise I'erreur quadratique totale 

De mamere similaire au codage de I'^nergie. les bits donnant le 
numero du schema ne sont pas a consider comme sensibles, puisque 
une erreur sur .eur valeur ne. Jait qu'alterer legerement revolution 
temporelle des filtres LPC. De p.us.Tes tables de quantification vectoriel.e 
des LSF sont organise* dans la partie synthese de sorte que I'erreur 
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quadratique moyenne produite par une erreur sur un bit d'adressage soit 
minimum. 

[^allocation des bits pour la transmission des parametres LSF, 
de I'energie, du pitch et du voisement qui resulte de la m&hode de 
5 codage mise en oeuvre par Tinvention est representee dans le tableau de 
la figure 9 dans le cadre d'un vocodeur a 1200 bits/s dans lequel les 
paramdtres sont codSs toutes les 67,5 ms; 81 bits etant disponibles a 
chaque super trame pour encoder Jes parametres du signal. Ces 81 bits 
se decomposent en 54 bits LSF, 2 "bits pour la decimation du schema des 
10 LSF, 2 fois 6 bits pour r<§nergie7T3T bits pour le pitch et 5 bits pour le 
voisement. 
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REVINDICATIONS 

1. ProcedS de codage et de decodage de la parole pour les 
5 communications vocales utilisant un vocodeur a tres bas debit 

comportant une partie analyse (4 10) pour le codage et la transmission 

des parametres du signal de parole et une partie synthese (1 1 16) pour 

la reception et le decodage des parametres transmis et la reconstruction 
du signal de parole par utilisation de filtres de synthese a prediction 
10 lindaire du type consistant a analyser les parametres, decrivant le pitch 
(8), la frequence de transition de voisement (9), I'energie (10), et 
I'enveloppe spectrale (5) du signaTde parole, en decoupant le signal de 
parole en trames successives de longueur determined caractense" en ce 
qu'il consiste a regrouper (17) les parametres sur N trames consecutives 
15 pour former une super-trame, a effectuer une quantification vectorielle 
(18) des frequences de transition du voisement au cours de chaque 
super-trame, en ne transmettant sans degradation que les configurations 
les plus frequentes et en reniplacant les configurations les moins 
frequentes par la configuration la plus proche en terme d'erreur absolue 
20 parmi les plus frequentes, a coder le pitch (19) en ne quantifiant 
scalairement qu'une seule valeur du pitch pour chaque super-trame, a 
coder I'energie (20) en ne seiectiorinant qu'un nombre nkluit de valeurs 
en regroupant ces valeurs en sous paquets quantifies par quantification 
vectorielle, les valeurs d'energie non transmises etant r<§cupe>6es dans la 
25 partie synthese par interpolation ~ou extrapolation a partir des valeurs 
transmises, a coder par quantification vectorielle (21) les parametres 
d'enveloppe spectrale pour I'encodage des filtres de synthese a prediction 
lineaire en ne selectionnant qu'un nombre determine de filtres, les 
parametres non transmis etant reconstruits par interpolation ou 
30 extrapolation a partir des parametres des filtres transmis. 

2. Procede selon la revehdication 1 caractense' en ce que la 
valeur quantified du pitch est soit la derniere valeur du pitch des zones 
stables entierement voisees, soit une valeur moyenne ponderee par la 
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frequence de transition de voisement dans les zones qui ne sont pas 
entierement voisees. 

3. Procede selon la revendication 2 caracterise en ce qu'il 
consiste lorsque la valeur de pitch est la derniere d'une super-trame, a 

5 reconstituer les autres valeurs par interpolation. 

4. Procede selon la revendication 3 caracterise en ce que la 
valeur du pitch utilisee dans la partie synthese est celle du pitch decode 
modifie par un coefficient de multiplication pour produire un leger tremolo 
dans la parole reconstitute. 

10 5. Procede selon l'une quelconque des revendications 1 d 4 

caracterise en ce que les paramfetres sont regroupes sur un nombre N = 3 
de trames cons6cutives. 

6. Procede selon la revendication 5 caracterise en ce que les 
— frequences. _de voisement _sont--au nombre de- 4 et -sont codees 

15 vectoriellement a 1'aide d'une table de quantification (22) comportant 32 
configurations de frequences groupies par 3. 

7. Procedt selon Tune quelconque des revendications 5 et 6 
caracterise en ce qu ? il consiste & mesurer l'6nergie 4 fois par trame, 
seulement 6 valeurs parmi les 12 d'une super-trame etant transmises 

20 (23) sous la forme de deux vecteurs de 3 valeurs. 

8. Procede selon la revendication 7 caracterise en ce qu'il 
consiste a coder I'energie (23) suivant quatre schemas regroupant chacun 
deux vecteurs, un premier schema lorsque les douze vecteurs d'energie 
dans la super-trame sont stables, les schemas restants etant definis pour 

25 chacune des trames, et a transmSttre le schema qui minimise I'erreur 
quadratique totale. .'Z'. 

9. Procede selon la revendication 8 caracterise en ce que : 

- dans le premier schema seules les valeurs d'energie 
numerotees 1 , 3, et 5 du premier~vecteur et celles numerotees 7,9, 11 

30 du deuxieme vecteur sont transmises, 

- dans le deuxieme schema seules les valeurs d'energies 
numerotees 0, 1, et 2 du premier vecteur et celles numerotees 3, 7, et 
1 1 du deuxieme vecteur sont transmises, 
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- dans le tro.s.eme schema seules le S valeurs d'energies 
numerotees 1, 4 5 do premier vecteur et celles numerotees 6 7 e 

du deuxieme vecteur sont transmises, ' ' 

- et dans le quatrieme schema seules les valeurs d'energies 
5 numerotees 2, Set 8 du premier vecteur et celles numerotees 9 , Z 

1 1 du deuxieme vecteur sont transmises. ' ' " 

10. Proc^de" selon I'unTquelconque des revendications 1 a 9 
caracterise en ce qu'i. consiste a effectuer ,a selection des parametres 
d encodage des f.ltres de prediction Mir. suivant quatre schemas pour 

10 encoder au mieux soit .es zones pour lesquel.es .'enve.oppe spectra.e est 
stable, set les rones pour lesquel.es I'enve.oppe spectra.e varie 
rap.dement au cours des trames 1, 2, ou 3 d'une super trame. 

11. Proced<§ selon la revendication 10 caracterise en ce qu'il 
-ns,ste utiliser (24) dans la partie synthese 6 fi.tres a prediction 

1 5 l, n ea.re a 1 0 coeff .cents numerate* de 0 a 5 et a transmettre : 

- dans un premier schema que les coefficients des filtres 1 3 
et 5 lorsque I'enveloppe spectrale est stable, ' ' 

- dans un deuxieme schema correspondant a fa premiere trame 
que les coefficients des filtres 0, 1 et 4, 

!0 - dans un troisieme schema correspondant a la deuxieme trame 

que les coefficients des filtres 2, 3 et 5, 

- dans un quatrieme schema correspondant a la troisieme trame 
que les coefficients des filtres 1, 4 et 5, 

5 r e ™,r \ SCh<§ma 6ffeCtivement transmis *ant celui qui minimise 
5 I e reur quadrat.que totale, les coefficients des fi.tres non transmis etant 
calcules dans la partie synthese paf interpolation ou extrapolation. 

12. Precede selon I'une quelconque des revendications 1 a 11 
caracterise en ce que les coefficients LSF des fi.tres de synthese sont 
codes sur un nombre de 54 bits auque. est ajoute deux bits pour la 
. transition des schemas de decimation, I'energie est codee avec un 
nombre de 2 fois 6 bits auque. est ajoute 2 bits pour la transmission des 
schemas de decimation, le pitch est code sur un nombre de 6 bits et la 
frequence de transition de voisement est codee sur un nombre de 5 bits 
so.t au total 81 bits pour des super-trames de 67 5 ms 
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